多语言生成模型通过大规模培训在大规模的培训上进行预训练,从而获得了能力的跨语义上下文学习capabil-ities。但是,它们仍然对高资源语言表现出表演偏见,并学习多语言句子表示的孤立分布,这可能会阻碍跨语言的知识传递。为了弥合这一差距,我们提出了一个简单而有效的跨语言对准框架,利用了换对句子对。它通过多语言对比度学习使内部句子表示,并通过按照目标语言的跨语性指示来对齐。实验结果表明,即使在训练前代币的0.1‰的情况下,我们的对齐框架也会显着提高生成语言模型的跨语性能力并减轻性能差距。进一步的分析表明,它导致了多语言模型的更好的内部多语言表示。1
![arxiv:2311.08089v2 [CS.CL] 2024年6月12日PDF文件第1页](/bimg/f/fc9fd927fecaf13ca7e2a32c8199553aa217ac0d.webp)
![arxiv:2311.08089v2 [CS.CL] 2024年6月12日PDF文件第2页](/bimg/4/4785d1f3bad65d2ed3a66e6e7239bc66f2f5d6ec.webp)
![arxiv:2311.08089v2 [CS.CL] 2024年6月12日PDF文件第3页](/bimg/5/5e539b7d4ca3952ed0a6f2050fc76930347ee56b.webp)
![arxiv:2311.08089v2 [CS.CL] 2024年6月12日PDF文件第4页](/bimg/f/f98071b6f2838bb4ef6aa168a3c75031ed5f32b1.webp)
![arxiv:2311.08089v2 [CS.CL] 2024年6月12日PDF文件第5页](/bimg/8/827b0f836cf68547fdea699062a70d910a451af4.webp)
